2007. 3. <서울시스템(주) 한국학데이터베이스연구소 연구 개발 사업>


東洋古典資料 온라인 서비스 솔루션


김  현


  1995년 10월 CD-ROM 판으로 開發된 <國譯 朝鮮王朝實錄> 데이터베이스는 1996년 8월부터 인터넷의 WEB 환경 하에서 ON-LINE으로 서비스될 수 있는 체제를 갖추었다. 이것은 서울시스템에서 東洋古典 데이터베이스의 인터넷 서비스를 위하여 開發한  ‘WEB SEARCH 96’ 상에서 운영된다.

  ‘WEB SEARCH 96’은 東洋 古典 學術 文化 데이터베이스의 WEB 방식 서비스를 목적으로 開發된 情報檢索 엔진으로서 이 시스템 상에서 운영되는 모든 데이터베이스의 情報는 인터넷을 통해 범세계적으로 공유되며, 데이터베이스에 포함된 모든 내용에 대해 신속하고 정확한 檢索 기능을 제공한다.  현재 서울시스템이 ‘WEB SEARCH 96’으로 開發한 데이터베이스는 <國譯 朝鮮王朝實錄> 외에도 朝鮮時代 과거 급제자 신상 情報 데이타베이스인 <文科榜目>(14,600명의 朝鮮時代 문과 급제자 情報)  <司馬榜目>(46,000 명의 朝鮮時代 生員 進士 합격자 신상 情報) <雜科榜目>(8,000 명의 技術관 시험 합격자 신상 情報) 및 1945년 이후 大韓民國에서 간행된 단행본과 석사 박사 학위논문의 서지 데이터(MARC 형식) 65만 건을 수록한 <韓國文獻目錄情報> 데이터베이스, 韓國의 文化遺蹟情報를 망라한 멀티미디어 데이터베이스 <大韓民國 文化遺蹟 總攬>, 韓國의 傳統繪畵, 民俗, 工藝, 傳統舞踊 등에 관한 情報를 집적한 <韓國 無形文化財 데이터베이스>, <韓國 傳統繪畵 데이터베이스>, <韓國 傳統舞踊 데이터베이스>, 東洋의  韓方醫藥學 情報를 집성한 <東洋傳統藥物 데이터베이스> 등 30여 종에 이른다.


  1. 開發 배경 및 운영 환경


  서울시스템에서 東洋古典情報 서비스를 위한 WEB 솔루션을 開發한 것은 비록 그 데이터베이스가 내용면에서 전문적인 情報를 담고 있다고 하더라도, 그 情報의 이용 환경은 가장 일반적인 것이 되어야 한다는 인식을 가졌기 때문이다.

  인터넷 상에 World Wide Web이 등장함으로서 온라인 通信 서비스는 텍스트 위주에서 멀티미디어 서비스로 변화하게 하였으며, 이로 인해 WWW는 가장 일반적인 멀티미디어 서비스 방법으로 인식되게 되었다.  특히, 멀티미디어 情報 서비스에서는 情報의 멀티미디어적인 표현이 이용자(클라이언트) 시스템의 환경에 의해 좌우되기 때문에, 광범위한 멀티미디어 情報 서비스는 이용자 시스템이 일정한 멀티미디어 情報 재현 환경을 갖추고 있다는 전제 하에서만 가능하다. 이 점에서 볼 때, WWW이 채용하고 있는 HTTP 通信 프로토콜과 HML 文書 형식은 보편적인 멀티미디어 情報 이용 환경을 이룩하였다고 할 수 있다. 즉 HTML 文書를 표현할 수 있는 情報 열람 소프트웨어(WEB 브라우저)의 광범위한 보급은 멀티미디어 情報의 광범위한 서비스 가능성을 보장하게 된 것이고, 이로 인해 InterNet의 World Wide Web 환경은 가장 보편적인 멀티미디어 情報 서비스 환경으로 자리잡게 된 것이다.

  이러한 이유에서 서울시스템은 東洋古典 學術․文化情報 서비스 시스템을 開發함에 있어 그 운영 환경을 멀티미디어 온라인 서비스의 보편적인 환경인 World Wide Web 체제에 맞추기 위한 노력을 기울여 왔으며, 그 결과 Web의 편의성과 東洋古典資料의 資料적 특수성을 조화시킨 시스템을 구현한 것이다.


  2. WWW과 古典資料 檢索 시스템의 연계 기능 구현


   Web을 위한 基本적인 文書 형식은 HTML은 文書를 구조적으로 표현하고 유관 資料를 연계할 수 있는 기능을 제공하지만, 방대한 資料에 대한 효과적인 檢索 기능을 지원하지는 않는다. 따라서  Web 상에서 情報에 대한 접근이 다각적으로 이루어질 수 있도록 하기 위해 Web SERVER와 情報 檢索 엔진의 연계 기능을 구현해야 한다. . 

     일반적으로 Web SERVER와 情報 檢索 엔진과의 연계는 Gateway 프로그램의 구현을 통해 이루어진다. CGI(Common Gateway Interface)는 Web 서버(HTTP DEAMON)와 다른 프로그램(DBMS, IRS 등) 사이에서 양자 사이를 연계시켜 주는 프로그램이다. 클라이언트가 서버의 HTTP 데몬 프로그램에 URL(Uniform Resource Locator)를 지정하여 특정 資料를 요청할 때마다 서버는 그에 해당하는 게이트웨이를 실행하고,  게이트웨이의 실행 결과는 다시 서버를 통해 클라이언트에게 전달된다. 즉 CGI는 클라이언트가 요청하는  URL의 목적지를 ‘특정 文書’에서 ‘프로그램의 실행 결과’로 치환하는 역할을 수행하는 것이다.

   서울시스템의 ‘WEB SERCH 96’은 <朝鮮王朝實錄 CD-ROM> 운영 소프트웨어의  檢索 엔진을  Web SERVER와 연동할 수 있는 CGI 프로그램의 형태로 만든 것이라고 할 수 있다.


  3. WEB SEARCH 96의 情報 檢索 기능


  ① 계층적 목차에 의한 資料 접근


  이것은 하부구조적으로는 데이터베이스의  Object 간 계층적 Linking 구조에 입각하여 구현되며, 상부의 유저 인터페이스 차원에서는 HTML 文書의 HYPER TEXT LINKING 형태로 구현된다.  즉, 이용자는 메뉴 상에서 하위 文書, 상위 文書, 혹은 다른 유관 文書를 호출할 때, HTML 文書상의 URL을 선택하는 방식을 취하지만, CGI 프로그램과 DB 엔진은 이것을 Object Linking 명령으로 치환하여 유관 資料를 찾아 주는 것이다.


  ② 통제어 索引에 의한 資料 접근


  통제어 索引은 데이터베이스 제작자가 직접 원시 資料에서 여러 종류의 索引어를 뽑아서 이것을 데이터베이스의 특정 필드에 기록해 둔 것을 말한다. 이 통제어 索引은 HTML 文書 형식으로 만들어진 ‘索引어 리스트’를 통해서 檢索될 수도 있으며, 이용자가 직접 질의방식(QUERY)으로 檢索 條件을 入力할 수도 있다. 이 통제어 索引 檢索은 CGI에 의해 檢索 엔진이 해석하는 표준적인 질의어로 變換되어 檢索 결과를 산출토록 하며, 산출된 결과를 다시 CGI가 HTML 文書 형식으로 만들어 이용자에게 되돌리도록 되어 있다.


  ③ 全文索引에 의한 資料 접근


  全文索引은 원시 資料에 쓰인 모든 語彙를 자동적으로 추출하여 檢索 접근점으로 삼는 것이다. 이 전문 索引에 의한 情報 檢索은 Web Search 96의 부속 모듈인 IRS(Information Retrieval System)에 의해서 구현된다.   IRS 엔진은 방대한 규모의 資料 속에서 필요한 情報를 순간적으로 檢索해 낼수 있어야 하므로 資料의 檢索 기능을 핵심 요소로 한다. Web Search 96의 檢索 엔진은 <國譯 朝鮮王朝實錄 데이터베이스>(原始資料量: 600 MB, 全文索引 7천5백만 單語), <韓國文獻目錄情報 데이터베이스>(原始資料量 400 MB, 全項目索引 2천만 單語), <大韓民國電話番號簿 데이터베이스>(原始資料量 700 MB, 全項目索引 3천6백만 單語) 등 방대한 규모의 情報 데이터베이스에 적용되었는데, 이 정도 규모의 데이터베이스 상에서 특정 질어어에 대한 檢索 결과를 1초 이내에 얻을 수 있는 신속성을 보이고 있다.


  4. 古典 資料 서비스를 위한 漢字 표현 기능


  대부분의 Web 서비스는 그 나라에서 통용되는 國家文字符號系(National Character Code Set)를 사용하며, 이용자들은 자기가 운영하는 클라이언트의 시스템 폰트에 의존하여 그 情報를 받아 보게 된다. 그러나, 일반적인 상용 漢字 이외의 희소 漢字의 출현 빈도가 높은 學術 資料나 古典 文獻 情報는 漢字 서비스를 위한 별도의 기능을 필요로 한다.  Web Search 96은 다음과 같은 두 가지 방식의 데이터 전송 기능을 구현하여 이 문제를 해결하고 있다.


  ① 擴張 코드 마크업 전송 및 전용 브라우저를 통한 열람


  國家 코드에서 지원하지 않는 漢字, 또는 國家 코드를 포함한 모든 漢字를 ‘유니 코드’(ISO 10646 International Code Set)의 코드 값에 의거한 마크업 符號로 전송한다. 이용자는 이 방식으로 전송된 데이터를 서울시스템이 제공하는 HELPER 프로그램(SSC WEB-VIEW)을 통해 열람할 수 있다.


  ② 그래픽 이미지 전송


  大韓民國의 國家 코드에서 지원하지 않는 희소 漢字는 호스트 컴퓨터의 서버가 그래픽 이미지(GIFF 형식)로 變換하여 전송한다. 이 경우 이용자는 별도의 HELPER 프로그램 없이 곧바로 WEB 브라우저 상에서 情報를 열람할 수 있다는 장점이 있다. 


   ③ 유니 코드 데이터 전송


  Windows NT와 같이 시스템 상에서  ‘유니 코드’ 운영을 지원하는 시스템을 위해 開發되었다. 향후 서울시스템의 온라인 情報 서비스의 데이터 전송 방식의 이 방법으로 일원화 될 것이다. 데이터 전송 방식 자체는 첫번째 방법과 유사하지만, 이용자 측에서 HELPER 프로그램을 사용하지 않고 시스템의 폰트 자원을 이용한다는 점이 다르다.  서울시스템은 97년 하반기부터 유니 코드 漢字 全文字(20,902 자)를 포함한 ‘유니 코드 폰트 세트’와 總文字數 70,000자에 달하는 擴張漢字 폰트 세트, 그리고 이에 상응하는 데이터 入力 환경 프로그램(IME: Input Method Environment)를 韓國 및 中國 日本 등의 漢文文化圈의 情報 이용자들에게 공급할 예정이다. 온라인 情報 서비스 이용자들은 이 書體와 프로그램을 자신의 컴퓨터에 설치한 후 유니 코드와  擴張 漢字로 전송되는 데이터를 자유롭게 열람하여, 필요한 데이터를 複寫, 編輯할 수 있게 될 것이다. 


♧ 화면: 조선왕조실록 Web Service

(표지, 검색화면, 간략정보화면, 상세정보화면)